Snowflake Marketplace上で東芝テック社が提供するPOSデータのサンプルを試してみた #SnowflakeDB
※本エントリは、Snowflakeをもっと使いこなそう! Advent Calendar 2022の2日目の記事となります。
さがらです。
Snowflake Marketplace上で東芝テック社が提供するPOSデータのサンプルを試してみたので、その内容をまとめてみます。
Snowflake Marketplaceとは
Snowflake Marketplaceは、サードパーティのデータに簡単にアクセスすることが出来るSnowflake上の1機能です。
Snowflakeアカウントを持つユーザーであれば誰でも利用すること出来、世界中で公開されているデータの一覧を見て、すぐに利用申請を出すことが出来ます。(データは、すぐに無料で使うことが出来るものもあれば、一度データの管理元から承認を得た上で定期的に利用費用を払わないと使えないものもあります。)
日本市場でも徐々にSnowflake Marketplaceでデータを公開する企業が増えており、2022年10月24日には東芝テック社、インテージ社、Tangerine社、xMAP社、エム・データ社、メディカル・データ・ビジョン社、QUICK社、の7社がSnowflake Marketplaceでデータを公開することを発表しています。詳細は下記の記事をご覧ください。
この7社がSnowflake Marketplaceで公開しているデータのうち、サンプルデータが無料で公開されている内の1つを本記事にて試してみます。
東芝テック社の提供するデータについて
東芝テック社ですが、POSレジや関連する流通システム、複合機など多角的に事業を展開している企業です。
その東芝テック社が、Snowflake Marketplace上で(Sample)Japan supermarket sales panel dataとして、許可を得られた日本の小売業のPOSデータのサンプルを公開しております。
以下はSnowflake Marketplaceで公開している情報にDeepL翻訳をかけたものです。
小売業から許諾を得たPOSデータを統計処理したパネルデータ。 日本を8つのエリアに分け、日別・時間別・JANコード別の購買指数などの情報を収録。 日別、時間別、JANコード別の購買指数などを収録しています。 データは店舗での売上発生後、1時間以内に更新されます。
試してみた
ということで、実際にSnowflake Maketplaceからデータを取得し、どんなデータが入っているのかを確かめてみます!
サンプルデータの取得
まず、使用するロールをIMPORT SHARE
権限を持っているロールに変更してください。(デフォルトではACCOUNTADMIN
のみ保持しています)
Snowflake上でMarketplace
を押します。
続いて、一番上の検索BOXにtoshiba
と入れて検索します。すると、(Sample)Japan supermarket sales panel data
が出てきますのでクリックします。
このページでは、データの説明やサンプルクエリを見ることが出来ます。
データを利用するためには、画面右の取得
を押します。
すると、下図のようなポップアップが表示されます。オプションを開くと、アカウント上に作成するデータベース名を変更したり、現在使用しているロール以外にどのロールにこのデータへのアクセスを出来るようにするか設定が可能です。
これらの設定が終わったら、取得
を押します。
この後、対象のデータベースができていれば準備は完了です!
サンプルデータへのクエリ
まずは、Marketplaceのページにも記載されていた下記のサンプルクエリを実行してみます。
select * from IDP.V_SPOSPANEL_JAN_HOURS where SALES_DAY = '2022-09-20' and AREA_CODE2 = '5' and TIME_CODE = '10' and JANCODE = '04902705126558' order by 1,2,3,4,5;
まず、SALES_DAY
が対象アイテムが売れた日として登録されており、AREA_NAME1
が西日本や東日本などの粒度での地域を示し、AREA_NAME2
が近畿や関東などの粒度での地域を示しているようです。
TIME_CODE
は、基本的に「○時台」を示しているようですね。
JANCODE
は国際標準の商品識別コードであり、04902705126558
というコードはおいしい牛乳
が登録されているようです。(実際にこのJANコードでインターネットブラウザで検索してみると、おいしい牛乳がヒットします!)
COUNT_PI_NUMBER
、AMOUNT_PI_NUMBER
、COSTOMER_PI_NUMBER
というカラムでは各粒度でのPurchase Indexを示しているようです。
TOTAL_COUNT
は該当レコードにおける時間帯・地域において、JANコードの商品が売れた合計数量を示し、TOTAL_AMOUNT
は合計金額を示しているようです。
他にどんなデータが入っているか気になって単純なselect *
のクエリも投げてみましたが、基本的には食品系の商品の情報が登録されているようです!季節特性や時間帯から、どの商品が売れているかを確認し、売れそうな時間帯を狙って特売キャンペーンなどをすると効果があるかもしれませんね!
最後に
Snowflake Marketplace上で東芝テック社が提供するPOSデータのサンプルを試してみました。
食品系の商品のサンプルデータということで、このサンプルデータを見ただけでも「え、この地域ではこの1時間だけでこの商品がこんなに売れているの!?」と見ているだけでもワクワクするデータでした。
まずはこのサンプルデータから試して頂いて、全ての公開データが気になる場合には、ぜひSnowflake Marketplaceを介して東芝テック社へ連絡してみてください!